Telegram Group & Telegram Channel
Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/213
Create:
Last Update:

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/213

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

That strategy is the acquisition of a value-priced company by a growth company. Using the growth company's higher-priced stock for the acquisition can produce outsized revenue and earnings growth. Even better is the use of cash, particularly in a growth period when financial aggressiveness is accepted and even positively viewed.he key public rationale behind this strategy is synergy - the 1+1=3 view. In many cases, synergy does occur and is valuable. However, in other cases, particularly as the strategy gains popularity, it doesn't. Joining two different organizations, workforces and cultures is a challenge. Simply putting two separate organizations together necessarily creates disruptions and conflicts that can undermine both operations.

Telegram hopes to raise $1bn with a convertible bond private placement

The super secure UAE-based Telegram messenger service, developed by Russian-born software icon Pavel Durov, is looking to raise $1bn through a bond placement to a limited number of investors from Russia, Europe, Asia and the Middle East, the Kommersant daily reported citing unnamed sources on February 18, 2021.The issue reportedly comprises exchange bonds that could be converted into equity in the messaging service that is currently 100% owned by Durov and his brother Nikolai.Kommersant reports that the price of the conversion would be at a 10% discount to a potential IPO should it happen within five years.The minimum bond placement is said to be set at $50mn, but could be lowered to $10mn. Five-year bonds could carry an annual coupon of 7-8%.

Knowledge Accumulator from kr


Telegram Knowledge Accumulator
FROM USA